Apache Spark Streaming با Python و PySpark [ویدئو]

Apache Spark Streaming with Python and PySpark [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Spark Streaming به طور باورنکردنی محبوب می شود و دلیل خوبی هم دارد. طبق گزارش IBM، 90 درصد از داده های موجود در جهان امروز تنها در دو سال گذشته ایجاد شده است. خروجی فعلی داده ما تقریباً 2.5 کوئینتیلیون بایت در روز است. جهان در حال غوطه ور شدن در داده ها است، روز به روز بیشتر. به این ترتیب، تجزیه و تحلیل DataFrames ایستا برای داده های غیر دینامیکی هر روز کمتر به یک رویکرد عملی برای مشکلات بیشتر و بیشتر تبدیل می شود. این جایی است که جریان داده وارد می شود، توانایی پردازش داده ها تقریباً به محض تولید، با تشخیص وابستگی زمانی داده ها. Apache Spark Streaming به ما توانایی نامحدودی برای ساخت برنامه های کاربردی پیشرفته می دهد. همچنین یکی از قانع‌کننده‌ترین فناوری‌های دهه گذشته از نظر اختلال در دنیای داده‌های بزرگ است. Spark محاسبات خوشه‌ای درون حافظه را فراهم می‌کند که سرعت الگوریتم‌های تکراری و وظایف داده‌کاوی تعاملی را تا حد زیادی افزایش می‌دهد. Spark همچنین یک موتور قدرتمند برای پخش داده ها و همچنین پردازش آنها است. هم افزایی بین آنها Spark را به ابزاری ایده آل برای پردازش شیلنگ های آتش نشانی غول پیکر تبدیل می کند. هزاران شرکت، از جمله شرکت های Fortune 500، در حال تطبیق Apache Spark Streaming برای استخراج معنی از جریان های داده عظیم هستند. امروز، شما به همان فناوری کلان داده درست روی دسکتاپ خود دسترسی دارید. این دوره آموزشی Apache Spark Streaming به زبان پایتون تدریس می شود. پایتون در حال حاضر یکی از محبوب ترین زبان های برنامه نویسی در جهان است! جامعه داده غنی آن، ارائه مقادیر زیادی از جعبه ابزار و ویژگی ها، آن را به ابزاری قدرتمند برای پردازش داده تبدیل می کند. با استفاده از PySpark (API Python برای Spark)، می‌توانید با انتزاع اصلی Apache Spark Streaming، RDDها و همچنین سایر اجزای Spark مانند Spark SQL و موارد دیگر تعامل داشته باشید! بیایید یاد بگیریم که چگونه برنامه های Apache Spark Streaming را با PySpark Streaming بنویسیم تا منابع داده های بزرگ را امروز پردازش کنیم! مروری بر معماری آپاچی اسپارک نحوه توسعه برنامه‌های Apache Spark Streaming با PySpark با استفاده از تبدیل‌ها و اقدامات RDD و Spark SQL، انتزاع اولیه Spark، Resilient Distributed Datasets (RDDs)، برای پردازش و تجزیه و تحلیل مجموعه‌های داده بزرگ. تکنیک‌های پیشرفته برای بهینه‌سازی و تنظیم کارهای Apache Spark با پارتیشن‌بندی، کش کردن، و RDD‌های ماندگار. تجزیه و تحلیل داده های ساختاریافته و نیمه ساختار یافته با استفاده از Datasets و DataFrames و ایجاد درک کامل از Spark SQL. چگونه برنامه‌های Spark Streaming را برای پهنای باند و سرعت پردازش افزایش دهیم و Spark Streaming را با ابزارهای محاسباتی خوشه‌ای مانند Apache Kafka ادغام کنیم تا جریان Spark خود را به منبع داده‌ای مانند Amazon Web Services (AWS) Kinesis متصل کنیم. بهترین روش ها برای کار با Apache Spark Streaming در زمینه و نمای کلی اکوسیستم داده های بزرگ. این دوره برای توسعه دهندگان پایتون که به دنبال بهبود در جریان داده ها هستند، مدیران یا مهندسان ارشد در تیم های مهندسی داده، و توسعه دهندگان Spark مشتاق به گسترش مهارت های خود است. ایجاد خطوط انتقال داده های بزرگ با Spark با استفاده از Python * اجرای تجزیه و تحلیل بر روی داده های توییت زنده از توییتر * ادغام Spark Streaming با ابزارهایی مانند Apache Kafka که توسط شرکت های Fortune 500 استفاده می شود * کار با ویژگی های جدید جدیدترین نسخه Spark: 2.3 *

سرفصل ها و درس ها

شروع با Apache Spark Streaming Getting started with Apache Spark Streaming

  • بررسی اجمالی دوره The Course Overview

  • نحوه شرکت در این دوره و نحوه دریافت پشتیبانی How to Take this Course and How to Get Support

  • مقدمه ای بر استریمینگ Introduction to Streaming

  • آموزش راه اندازی Pyspark Pyspark Setup Tutorial

  • نمونه برنامه توییتر Example Twitter Application

اصول اولیه Pyspark Pyspark Basics

  • جریان های گسسته چیست؟ What are Discretized Streams?

  • نحوه ایجاد جریان های گسسته How to Create Discretized Streams

  • تحولات در DStreams Transformations on DStreams

  • عملیات تحول Transformation Operation

  • عملیات پنجره Window Operations

  • پنجره Window

  • countByWindow countByWindow

  • reduceByKeyAndWindow reduceByKeyAndWindow

  • countByValueAndWindow countByValueAndWindow

  • عملیات خروجی در DStreams Output Operations on DStreams

  • forEachRDD forEachRDD

  • عملیات SQL SQL Operations

  • بررسی مبانی Reviewing the Basics

مفاهیم پیشرفته Spark Advanced Spark Concepts

  • به عملیات بپیوندید Join Operations

  • تحولات دولتی Stateful Transformations

  • ایست بازرسی Checkpointing

  • آکومولاتورها Accumulators

  • تحمل خطا Fault Tolerance

پخش جریانی PySpark در مقیاس PySpark Streaming at Scale

  • تنظیم عملکرد Performance Tuning

  • استریم PySpark با آپاچی کافکا PySpark Streaming with Apache Kafka

  • PySpark Streaming با Amazon Kinesis PySpark Streaming with Amazon Kinesis

جریان ساخت یافته Structured Streaming

  • مقدمه ای بر جریان ساخت یافته Introduction to Structured Streaming

  • عملیات بر روی دیتافریم ها و مجموعه داده های جریانی Operations on Streaming Dataframes and DataSets

  • عملیات پنجره Window Operations

  • مدیریت داده های دیرهنگام و واترمارکینگ Handling Late Data and Watermarking

نتیجه گیری دوره Course Conclusion

  • ویدئوی نهایی Final Video

نمایش نظرات

Apache Spark Streaming با Python و PySpark [ویدئو]
جزییات دوره
3 h 24 m
31
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
James Lee
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

James Lee James Lee

مهندس نرم افزار سیلیکون ولی